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Jj 要 : 对 大 规模 射电 天 文 巡天 项 目 产生 的 数据 进行 单 脉冲 搜索 会 产生 数 以 亿 计 的 脉 
冲 星 候选 体 。 本 文 处 理 了 CRAFTS (The Commensal Radio Astronomy FAST Survey) 3 
天 的 32 万 个 超 宽带 数据 文件 ， 得 到 5 万 个 脉冲 星 候 选 体 。 针 对 CRAFTS 单 脉冲 搜索 实 
验 结果 中 脉冲 星 候选 体 仅 有 1.5% 真 正 具有 脉冲 星 信 号 的 问题 ， 提 出 三 个 显著 区 分 脉冲 
星 信 号 与 干扰 的 特征 ， 并 应 用 到 单 脉冲 筛选 流程 中 。 实 验 表明 ,改进 后 的 单 脉冲 筛选 工 
具 将 需要 人 工 检查 脉冲 星 候选 体 的 数量 降低 了 20%， 一 定 程度 上 提升 了 CRAFTS 巡天 
数据 的 单 脉 冲 搜索 效率 。 
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设 ， 构 造 三 个 显著 区 分 脉冲 星 信 号 与 干扰 的 特征 ， 则 在 缓解 出 现 大 量 假 阳 性 样本 的 问题 。 实 验 表明 
添加 特征 值 判断 的 单 脉冲 筛选 工具 与 传统 方法 相 比 ， 假 阳性 样本 数量 减少 了 209%。 
2 CRAFTS 超 宽 带 数 据 单 脉冲 搜索 实验 


在 射电 天 文 观测 数据 中 发 现 脉冲 星 通常 分 为 四 个 阶段 :收集 、 消 色散 、 周 期 性 或 单 脉冲 搜 


索 和 人 工 检 查 外 。 在 第 一 阶段 ， 原 始 数 据 以 电压 时 间 序 列 的 形式 由 射电 望远镜 收集 。 第 二 阶段 ， 
于 脉冲 辐射 通过 星际 介质 (Interstellar Medium, ISM) 的 色散 效应 ， 导 致 较 低频 率 的 脉冲 比较 
高 频率 晚 到 达 " 。 消 色散 是 消除 这 些 与 频率 有 关 的 延迟 效应 的 影响 。 第 三 阶段 ， 使 用 周期 性 搜 


索 或 单 脉冲 搜索 寻找 出 数据 中 的 脉冲 星 候选 体 。 第 四 阶段 , 对 上 面 判 断 为 脉冲 星 候选 体 的 数据 再 
进行 一 次 人 工 检查 。 
2.1 数据 处 理 

我 们 先 使 用 PRESTO (Pulsar Exploration and Search Toolkit) 脉冲 星 搜 索 工 具 处 理 了 
CRAFTS2017 ££ 8 月 至 2018 年 5 月 的 超 宽 带 数 据 ， 处 理 流 程 包括 : 去 干扰 、 消 色散 、 单 脉冲 搜 
索 等 步骤; 然后 ,应 用 单 脉 冲 筛选 工具 RRATtrap 从 PRESTO 的 Single pulse search.py 输出 文件 中 
筛选 出 脉冲 星 候 选 体 。 


单 脉冲 筛选 工具 RRATtrap 根据 脉冲 星 信 号 如 下 特性 ， 将 脉冲 星 信 号 与 干扰 区 分 开 。1、 脉 冲 
星 信 号 出 现在 一 定 (Dispersion Measure,DM) 范围 内 。 在 最 佳 的 DM 时 检测 到 峰值 信 x 而 在 该 
DM 上 下 信 噪 比 下 降 ， 这 是 由 于 脉冲 在 不 正确 的 DM 消 色 散 导致 脉冲 展 宽 造 成 的 。2、 四 全 号 在 
最 佳 DM 检测 到 峰值 信 噪 比 ， 预 计 来 自 地 面 的 信号 〔 即 射频 干扰 ) 将 在 DM 为 0 pc cm” 达到 峰 
值 。 同 时 射频 干扰 不 会 受到 色散 效应 的 影响 ， 因 此 出 现在 一 个 非常 大 的 DM FERIA, 


图 1 是 单 脉冲 筛选 工具 RRATtrap 探测 到 已 知 脉冲 星 PSR B0540+21 的 诊断 图 。 左 侧 子 图 纵 坐 
标 为 试验 DM 范围 ， 横 坐标 为 观测 时 间 ，CRAFTS 超 宽带 数据 每 个 观测 文件 为 52: 秒 ， 右 侧 子 图 描 
述 试验 DM 对 应 的 信 噪 比 大 小 。 可 以 看 到 呈 仿 锤 状 的 单 脉冲 事件 组 (在 相 邻 的 DM. 与 时 间 窗 口内 所 
有 信 品 比 大 于 5 的 事件 ) 在 最 佳 DM78 pc cm 取得 峰值 信 噪 比 68， 而 在 该 DM 上 下 ， 信 噪 比 下 
降 。 其 中 ， 强 的 脉冲 星 信 号 被 标记 为 Excellent; 弱 的 脉冲 星 信 号 被 表 标 记 为 Very good; 不 规则 的 
脉冲 星 信号 被 标记 为 Good BK Ok; 射频 干扰 被 标记 为 RFI; 宇宙 噪音 被 标记 为 Noise。 在 图 2 中 ， 
我 们 看 到 在 较 宽 的 DM 范围 上 极 强 的 射频 干扰 的 实例 。 此 外 ,发 现在 上 = 20 一 40s， 极 强 的 射频 干 
扰 被 错误 标记 为 脉冲 星 信和 号。 
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图 1 RRATtrap- 探 测 到 脉冲 星 PSR B0540+21 诊断 图 
Fig 1 Diagnostic picture of the pulsar PSR BO540+21 detected by RRATtrap - 
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Fig 2 RRATtrap screened out false positive case diagnosis diagram 
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比 的 影响 。 然 后 ， 构 造 了 三 个 显著 区 分 脉冲 星 信 号 
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的 DM 的 时 间 序 列 进行 多 次 下 采样 并 重新 搜索 ， 当 有 效 的 采样 时 间 最 接近 脉冲 宽度 时 ， 脉 冲 达 
到 最 高 的 信 噪 比 。 在 不 同 的 DM 信道 中 ， 随 着 试验 DM 与 真实 DM 的 偏差 越 大 ， 信 噪 比 越 小 ， 


如 图 1 所 示 。 
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这 两 个 式 (2)(3)， 给 出 天 体 物理 脉冲 的 信 品 比 和 宽度 ， 我 们 可 以 计算 出 预期 的 DM 偏差 


图 3 中 ， 展 示 了 在 中 心 频率 546 MHz. ， 时 间 分 辩 率 为 100Us 和 匹配 滤波 使 用 30 的 


PSR B2000+40 一 组 单 脉冲 事件 预期 和 和 拟 合 信 噪 比 下 降 曲 线 。 在 这 两 种 情况 下 ， 信 噪 比 峰值 处 的 
DM 被 认为 是 真正 的 DM。 我 们 计算 预期 的 信 噪 比 下 降 ， 利 用 峰值 信 噪 比 和 匹配 滤波 得 到 脉冲 宽 


度 ， 这 和 实际 脉冲 宽度 很 接近 。 另 一 方面 ， 为 了 计算 拟 合 的 信 噪 比 下 降 ， 首 先 ， 使 用 非 线性 最 小 
二 乘法 (NLS) 对 原始 数据 进行 回归 得 到 拟 合 的 峰值 ， 然 后 ， 使 用 相同 的 方程 计算 拟 合 的 信 噪 比 
下 降 。 图 3 可 以 看 出 ， 预 期 和 拟 合 的 DM 与 信 噪 比 曲 线 大 致 是 高 斯 曲线 。 使 用 观测 到 的 峰值 信 
噪 比 和 匹配 滤波 得 到 脉冲 宽度 ,预期 的 信 噪 比 下 降 与 拟 合 值 在 峰值 右 侧 相当 接近 , 但 在 左 侧 出 现 
偏差 。 这 是 匹配 滤波 得 到 的 脉冲 宽度 与 实际 脉冲 宽度 的 偏差 造成 的 。 
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图 3 PSR B2000+40 一 组 单 脉冲 事件 色散 与 信 噪 比 曲线 图 


Fig 3 PSR B2000+40 a set of single pulse event dispersion and signal-to-noise ratio curve 
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指出 脉冲 星 的 轮廓 可 以 简化 为 高 斯 型 (对 大 多 数 脉冲 星 来 说 是 一 个 合理 的 近似 ) 王 。 
与 McLaughlin 提出 单 脉 冲 搜索 理论 ， 天 体 物理 脉冲 的 DM 和 信 噪 比 曲 线 大 致 是 高 


斯 曲线 外 ,如 图 3 所 示 。 由 于 高 斯 曲线 通常 是 对 称 ,Di Pang 提 出 了 两 种 对 称 特征 , ST, P SIgn + 
来 表征 单 脉冲 事件 组 的 DM 与 信 噪 比 曲 线 的 对 称 性 34。 ST yy, SST gy 的 计算 方法 如 下 : 


202107.00045v1 


chinaXiv 


ChinaXiv 合 作 期 刊 


SI = min(max DM — peakDM , peakDM -min DM) 
P" max(max DM - peakDM, peakDM — min DM) (4) 


xu, peakDM 是 信 噪 比 峰 值 对 应 的 DM; max DM 是 单 脉冲 事件 组 最 大 的 DM:; 
min DM 是 单 脉冲 事件 组 最 小 的 DM. 


p, = PPS LN GS Nag) ) 
UNC max) S / Nu > SIN sighs) 


这 里 ， STS / Nu 是 信 品 比 峰值 左 侧 所 有 单 脉冲 事件 的 信 噪 比 求 和 ， TS NL, 是 信 
噪 比 峰值 右 侧 所 有 单 脉 冲 事件 的 信 噪 比 求 和 。 


由 式 (4) 和 (5) 定义 的 STjy 和 SJ yx 的 取 值 范围 都 在 0 到 1， 这 两 个 特征 取 值 越 高 ， 则 
越 对 称 ， 相 反 不 遵循 方程 OO. 描述 规律 的 射频 和 干扰， 通常 在 DM 与 信 品 比 空间 是 单调 递减 (或 
递增 ) 。 所 以 , 它们 通常 具有 接近 于 0 的 对 称 值 , 可 以 与 脉冲 星 信号 进行 区 分 。 如 图 4 和 5 所 示 ， 
分 别 展示 了 脉冲 星 样 本 的 ST o, IST. v 对 称 值 ， 并 对 脉冲 星 信 号 ， 射 频 和 干扰 和 噪音 进行 了 对 
比 。 可 以 看 出 : 脉冲 星 信号 通常 具有 较 大 的 对 称 值 ， 而 射频 干扰 和 噪音 的 对 称 值 相对 较 小 ， 这 表 
明 脉 冲 星 信号 比 干扰 更 对 称 。 此 外 ， 发 现 一 些 噪音 具有 大 的 对 称 值 ， 这 些 通常 是 高 斯 噪声 。 


Silpm 对 称 值 
o 
A 


Vi 


e 
N 


Mig i7 
= 


-ez---7- 
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40 
脉冲 星 样本 编号 


图 4 OREHEK SI py 对 称 


Fig4 SI pm Symmetry values of pulsar samples 
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Sls/N 对 称 值 


sase. 


40 
脉冲 星 样本 编号 
图 5 脉冲 星 样本 ST, 对 称 什 


Fig5 ST SN Symmetry values of pulsar samples 


Cordes 5j McLaughlin 预测 在 没有 任何 宇宙 噪音 和 射频 干扰 的 情况 下 ， 信 噪 比 的 数据 分 布 
是 高 斯 分 布 外 。 峰 度 是 描述 总 体 数据 分 布 与 高 斯 分 布 的 陡 缓 程度 统计 量 。 为 了 判断 脉冲 星 样本 信 
品 比 的 数据 分 布 是 否 符合 高 斯 分 布 ， 我 们 使 用 kurtosis 峰 度 值 来 表征 单 脉冲 事件 组 内 信 噪 比 的 数 
据 分 布 与 高 斯 分 布 的 符合 程度 。kurtosis 峰 度 值 的 计算 方法 如 下 : 


an EK(SIN-guy 
kurtosis[S / N] = g (848-8 n pH. 
5 (Et(S/ N - uy 1) (6) 


XH, S/N 是 单 脉冲 事件 的 信 噪 比 ，Aw 是 单 脉冲 事件 组 内 平均 信 噪 比 ，GC 是 单 脉 冲 
事件 组 内 信 噪 比 的 方差 。 


kurtos i sl {Å 


射频 干扰 宇宙 噪音 脉冲 星 信 号 
图 6 脉冲 星 样 本 kurtosis 峰 度 值 


Fig 6 kurtosis value of pulsar sample 
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MC (6) 定义 的 kurtosis 峰 度 值 是 3 时 ， 信 噪 比 的 数据 分 布 服从 高 斯 分 布 ， 随 着 kurtosis 


峰 度 值 与 3 的 差距 越 大 ， 其 分 布 有 
线 图 展示 了 脉冲 星 样 本 的 kurtosis 峰 度 值 分 布 情况 ， 


对 比 。 可 以 看 出 : 脉冲 星 


差距 较 大 。 表明 脉冲 星 信 号 信 品 比 数 据 分 布 近 似 服 从 高 斯 分 布 , 而 大 部 分 干扰 与 噪音 不 具有 此 规 


EB 态 的 陡 缓 程度 与 高 斯 分 布 的 差异 程度 越 大 。 如 图 6 Bras, HIR 


并 对 脉冲 星 信号 ， 射 频 干 扰 和 噪音 进行 了 


言 号 峰 度 值 集中 于 3 附近 ， 而 射频 干扰 和 噪音 的 峰 度 值 分 散 ， 且 与 3 


图 4、5、6 可 以 明显 看 出 脉冲 星 信 号 、 射 频 干 扰 和 宇宙 噪音 在 三 个 特征 分 布 的 差异 。 因 
Ik, 我们 根据 脉冲 星 信 号 与 干扰 特征 值 的 分 布 区 间 ， 如 表 1 Hrs. PRIMERA, A 
除 不 满足 闵 值 的 脉冲 星 候选 体 ， 从 而 达到 降低 假 阳 性 率 的 目的 。 


(比如 : 设置 脉冲 星 信号 特 


ÎE ST pu RME 0.1 作为 阐 值 ， 对 低 于 闵 值 的 候选 体 视 为 干扰 处 理 。 那 么 ， 特 征 值 在 0. 02 
到 0. 1 区间 的 射频 干扰 将 不 会 被 错误 的 标记 为 脉冲 星 候 选 体 。) 同时 ， 我 们 选取 不 同 阔 值 进 
行 实验 ， 并 统计 其 对 应 的 假 阳 性 率 和 遗漏 脉冲 星 信 号 的 结果 ， 如 图 7 所 示 。 可 以 看 出 : 随 着 
PEAS KB REKHA, 假 阳 性 率 不 断 减 小 ; 与 此 同时 ,遗漏 发 现 的 脉冲 星 数 量 在 不 断 


增加 。 而 我 们 做 脉冲 星 搜寻 工作 ,首要 前 提 是 保证 观测 数据 中 所 有 脉冲 星 信 号 不 被 遗漏 。 基 


JW, 我 们 选取 表 1 Pk 


星 信号 特征 SI y 最 小 值 0. 1， 


ST sy 最 小 值 0. 29 (FABIA: 特 


ÎE kurtosis 的 区 间 -1.54~27.11 作为 闹 值 区 间 ， 对 低 于 阔 值 或 不 在 闵 值 区 间 的 脉冲 星 候选 体 


视 为 射频 干扰 或 字 


HR Er AREE, 


#1 三 个 特征 在 三 种 类 别 的 分 布 区 间 


Table 1 Value ranges of the three characteristics in the three categories 


特征 脉冲 星 信号 射频 干扰 宇宙 噪音 
CRAFTS PMPS CRAFTS CRAFTS 

SI 0.10-0.97 0.25-0.90 0.02-0.92 0.01~0.94 
Slog 0.29~0.96 0.26~0.96 0.01~0.99 0.02~0.54 
kurtosis -1.54-27.11 -0.81-23.38 -0.80-28.95 0.74-31.58 


假 阳性 率 (8) 


0.2 0.4 
特征 Sipm 阅 值 


0.6 


— AE 0416 
-e- BRE 


— HAS o 
-e- ERE K 


0.4 0.6 
特征 91s/w 羡 值 


(10,50) C5,30) C3,10 61,5) (1,3) 
特征 kurtosis 阅 值 范围 


图 7 各 个 特征 在 不 同 阐 值 假 阳 性 和 遗漏 脉冲 星 的 情况 ， 其 中 红色 竖 线 代表 所 选择 的 冰 值 


Fig 7 Each feature has different thresholds for false positives and missing pulsars, where the red 


此 外 ， 为 了 证 实 我 们 所 述 特征 是 否 石 
实验 。 根 据 张 松 波 公开 的 帕克 斯 


vertical line represents the selected threshold 


E 其 它 观测 数据 有 效 ， 我 们 对 帕克 斯 多 波束 数据 进行 了 
各 脉冲 数据 库 094， 构 建 了 一 个 PMPS (Parkes Multibeam Pulsar 
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Survey) 数据 集 ， 其 中 包含 帕克 斯 发 现 的 部 分 脉冲 星 信 号 。 我 们 计算 得 到 PMPS 数据 集中 脉冲 星 
信号 在 三 个 特征 值 的 分 布 情况 ， 并 与 CRAFTS 进行 对 比 ， 如 表 1 所 示 。 可 以 发 现 : 它们 的 特征 
值 分 布 十 分 接近 ， 尽 管 它们 在 消 色 散 网 格 、 周 围 射 频 干 扰 的 环境 等 存在 显著 差异 。 因 此 ， 我 们 所 
述 的 特征 阔 值 同样 能 够 将 帕克 斯 数据 中 脉冲 星 信 号 从 干扰 中 区 分 开 。 

我 们 将 上 述 阔 值 和 效 值 区 间 应 用 到 单 脉 神 筛选 工具 上 ， 对 脉冲 星 候选 体 进行 重新 盘 选 。 实 
验 结果 如 表 2 所 示 : 可 以 看 出 添加 单个 特征 阔 值 判断 的 单 脉冲 筛选 工具 能 在 一 定 程度 上 降低 假 阳 
性 率 ， 并 且 三 个 特征 阐 值 组 合 判 断 假 阳性 率 从 98.5% 降 低 到 78.4%。 表 明 添 加 特征 阔 值 判断 的 单 
脉冲 第 选 工具 提升 了 脉冲 星 搜 索 效率 。 

表 2 添加 特征 后 假 阳 性 率 结果 


Table 2 False positive rate results after adding features 


特征 假 阳 性 率 
CFPR ) 
SI pm 97.9% 
ST oss 93.896 
kurtosis 82.5% 
ST pm + ST, + kurtosis 78.4% 


4 总 结 与 展望 


本 文 使 用 PRESTO 的 单 脉冲 搜索 方法 对 CRAFTS 超 宽带 数据 文件 进行 的 实验 表明 ， 现 有 的 单 
脉冲 算 选 工具 难以 区 分 真实 的 信号 与 噪音 或 射频 干扰 返回 的 信号 , 造成 数 以 万 计 的 假 阳 性 样本 出 
现 ， 使 得 脉冲 星 的 发 现 变 得 困难 。 因 此 ， 我 们 先 提出 三 个 显著 区 分 脉冲 星 信 号 与 干扰 的 特征 。 并 
选取 同时 具有 脉冲 星 信 和 号、 射频 干扰 和 宇宙 噪音 的 79 颗 脉冲 星 样本 , 计算 它们 在 三 个 特征 取 值 情况 。 
然后 ， 根 据 脉 冲 星 信 号 、 射 频 干 扰 和 宇宙 噪音 在 三 个 特征 取 值 分 布 的 差异 ， 提 出 合理 阔 值 应 用 在 单 
脉冲 筛选 工具 上 ， 用 于 对 脉冲 星 候选 体 进行 严格 的 判断 。 最 后 ， 使 用 添加 特征 阔 值 判断 的 单 脉 冲 筛 
选 工具 对 脉冲 星 候选 体 进行 重新 实验 。 结 果 表 明 : 在 保证 所 有 脉冲 星 信号 都 不 被 遗漏 的 情况 下 ， 假 
阳性 率 从 98. 5% 降 低 到 78. 4%。 因 此 ， 本 文 所 述 三 个 特征 在 实验 的 验证 下 证 明了 有 具有 实用 性 和 有 
效 性 ， 可 以 助 益 于 单 脉冲 搜索 在 CRAFTS 巡 天 数据 的 应 用 。 
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Abstract: A single pulse search on the data generated by the large-scale radio astronomy survey 
project will generate hundreds of millions of pulsar candidates. This paper processed 320,000 
ultra-wideband data files of the CRAFTS (The Commensal Radio Astronomy FAST Survey) 
survey, and obtained 50,000 pulsar candidates. In order to solve the problem that only 1.5% of the 
pulsar candidates in the results of CRAFTS single pulse search experiment really have pulsar 
signal , three features that distinguish pulsar signals from interference are proposed and applied to 
the single pulse sifting process. Experiments show that the improved single pulse sifting method 
will reduce the number of pulsar candidates that need to be manually checked by 20%, which 


improves the single pulse search efficiency of CRAFTS survey data to a certain extent. 


Keywords: single pulse search; pulsar; dispersion; CRAFTS; signal-to-noise ratio; Radio 


frequency interference 


